2025/07/29

謝天

想像一下:機場外一片祥雲映照,一家人在夕陽下微笑相擁,天際中仿佛有無形的手輕撫日程的波折——那就是「謝天」的味道。希望這張圖片能捕捉你腦海中的感動場景。
弟弟全家回來幫父親過80歲生日,昨天晚上要搭機回加州,我們原本要全家一起送他們去機場,結果小朋友說會暈車不想去,我只好留在家看顧。

不久接到弟弟的電話,說辦理登機的時候發現忘了帶電腦。我看了一下,發現的確忘在原本堆放行李的地方,看了看時間,決定飛車送去機場,幸好還來得及趕上登機。

想想這應該算是好運氣吧。原本小朋友是到哪裡都要跟著叔叔全家的,不知道為什麼突然不想去機場,不然我也沒辦法來得及送東西過去。

該謝的人太多了,那就謝天吧。

2025/07/13

這不是 Palantir (PLTR) 的研究報告

Palantir (PLTR) 大概是近期最受矚目的公司之一,除了創辦人是知名的 Peter Thiel 之外(PayPal 幫大老,也是之前寫過心得的「從0到1」的作者),公司去年(2024)11月紐約證券交易所 (NYSE) 轉至科技股集中的納斯達克 (NDAQ)交易,股價從不到 50 美元,至今(2025-7月)已經漲到超過了每股 140 美元,幾乎成長了三倍。

這樣的一家公司,自然已經有很多分析師做過研究、寫過報告,有興趣的可以參考最底下的參考資料,我也不再贅述。真的引起我的興趣的,是最近看到一部硅谷101的分析(看名字就知道是對岸的,不喜勿入),提到他們怎麼把軍事情報分析的流程跟技術標準化,運用在企業資料上

其實 Palantir 對企業資料的作法並不特別,過去20年從 Business Intelligence、Big Data、智慧製造,到如今的 AI,大家都在試圖做一樣的事情,更不用說半導體產業更早就開始做的 Computer Intergrated Manufacture(CIM)。真的令人意外的是,Palantir 把這件「大家都想做但都一直沒成功」的事情,出乎意料的有了個成功的開始。

當然,我們可以事後諸葛的搖著扇子說,PLTR 是藉著在公部門的成功經驗,配合 AI 技術突破,甚至是擁護現任總統當選有功,所以才有機會云云。但無論如何,他們就是做到了。雖然後續發展還不見得就一帆風順,但這是很好的開始。

無論是工業製造或是組織情境之中,「整合多種資料來源,做出整合研判,並且轉換成可執行的建議清單」,最後付諸執行,都是「決策」的核心。說真的,AI 的商業機會絕對不在取代個人工作,而是輔助決策的效益。所以,無論是誰,能成功切入這個市場的,未來的獲利都是可以期待的。

如果是想看 PLTR 研究報告的人,可以由此去:

2025/07/10

什麼是世界模型(world model)?

大語言模型自從 ChatGPT 問世以來,紅了也快 3 年了,過去一年「模型」的進步越來越少,人工智慧的話題慢慢開始轉向應用。而 Google DeepMind 的 Genie 2 、Meta AI 的 V-JEPA I-JEPA 模型則揭示了大語言模型要達成通用人工智慧缺失的一塊拼圖,世界模型。

「世界模型」是一種人工智慧的取向,旨在讓智慧體能夠理解並模擬外部互動世界或環境,從而提升其決策與規劃能力。

世界模型的核心概念包括:

  • 內部模擬現實:它不像傳統機器學習僅將輸入映射到輸出,而是建構一個現實的內部模擬。這讓AI系統能對世界形成豐富的內部理解,類似於人類使用心智模擬來預測結果並做出決策。
  • 理解「為何」:世界模型不僅預測會發生什麼,更重要的是理解「為何」會發生。
  • 從人類思維中汲取靈感:它借鑒了人類自然發展出的世界心智模型,將感官的抽象表徵轉化為對周遭更具體的理解。
  • 超越感知與反應:最終目標是讓AI能夠像人類一樣「夢想」、想像整個世界、預測未來情境並在執行前進行規劃。
  • 基礎世界模型:例如Genie 2,它是一種基礎世界模型,能夠生成無盡多樣的、可動作控制的、可玩的3D環境,用於訓練和評估具身代理。

世界模型通常包含以下核心部分:

1. 表徵學習(Representation Learning)/ 感知模型(Vision Model V):

  • 功能:將高維度感官數據(如圖像、文本或影片)壓縮成有意義的低維度表徵。
  • 實現:通常使用變分自編碼器(VAE)或類似架構,將輸入編碼到潛在空間。I-JEPA使用視覺Transformer (ViT) 作為上下文編碼器來處理可見的上下文區塊。
  • 目的:捕獲環境的基本特徵,同時過濾掉無關的噪音。

2. 預測模型(Prediction Model)/ 記憶模型(Memory Model M):

  • 功能:根據過去和現在的數據預測環境的未來狀態。它還能夠預測其他代理的行為。
  • 實現:通常使用循環神經網路(RNN)或Transformer來建模環境中的時間依賴關係。Genie 2是一個自迴歸潛在擴散模型,利用大型Transformer動態模型來處理潛在幀。I-JEPA的預測器是一個狹窄的ViT。
  • 目的:幫助AI學習動作如何影響下一個狀態,從而預測未來情境。Yann LeCun將其描述為一個「隱藏狀態預測器」(Pred()),用於計算 s(t+1),並使用潛在變數 z(t) 來表徵一系列合理的預測。

3. 規劃與決策模型(Planning and Decision-Making)/ 控制器(Controller C):

  • 功能:利用學到的模型來模擬不同的動作,並選擇最佳的行動方案。
  • 實現:一個輕量級的策略網路,在世界模型創建的模擬環境中運作,從而使訓練更高效。
  • 目的:使AI能夠根據想像的情境進行規劃和採取行動。


世界模型展現了廣泛的能力,並在多個領域具有潛在應用:

  • 環境模擬與生成:模擬虛擬世界,包括採取任何行動的後果。
  • 預測與理解:能夠理解行為背後的潛在原理,而非僅僅觀察到的模式。
  • 決策與規劃:通過深層次理解推理出實現目標的行動序列,實現高效的零樣本決策制定和規劃能力。
  • 通用性與效率:能更好地泛化並以更少的監督進行學習,適用於標記數據稀缺或需要戰略決策的環境。
  • 新興能力:具備「長時記憶」能力,能夠記住不再視野內的環境部分,並在重新可見時準確呈現。能夠生成與行動一致的、多樣的軌跡,模擬反事實經驗以訓練代理。

如果想要更白話一點的介紹,可以看最近 PanSci 的介紹影片